72 research outputs found

    Noms généraux et complexité discursive

    Get PDF
    International audienceQu'est-ce qu'on entend par complexité linguistique ? Pour les phonologues, la réponse à cette question serait à chercher dans la complexité syllabique (cf. Pellegrino et al., 2009). Pour les typologues, la réponse dépendrait de la question de savoir s'il existe des langues plus complexes que d'autres en ce qui concerne un phénomène spécifique. L'idée en cours est qu'il n'y a pas de différences notables de complexité, lorsqu'on procède à une comparaison globale des langues, c'est-à-dire en tant que systèmes (cf. Changizi, 2001 ; Miestamo et al., 2008). En psycholinguistique, la complexité peut se mesurer en termes des difficultés d'interprétation de textes. Ainsi, un temps plus considérable dans la lecture d'un mot ou une lecture qui fait intervenir des retours oculaires constituent des indices de complexité (Gibson, 1998). Pour le théoricien de la langue, le grammairien, le mathématicien ou l'informaticien, l'évaluation de la complexité pourrait consister dans la quantité de règles à mettre en jeu ou dans le nombre d'éléments requis pour assurer la bonne formation d'une séquence permettant la bonne transmission de tel ou tel message, ce qui veut dire en fin de compte que la complexité est un phénomène quantifiable ou 'algorithmisable' ou, encore, que la complexité se mesure en termes de coût et bénéfices (nombre d'éléments requis pour telle quantité d'information obtenue ; nombre d'opérations requises pour réduire l'incertain selon les théories des probabilités) (Shannon, 1948 ; Zipf, 1949 ; Kolmogorov, 1963 ; Lempel & Ziv, 1976 ; Ziv & Lempel, 1977). Pour les spécialistes en morphologie, l'examen de la complexité pourrait passer, entre autres, par le crible de l'inflexion ou de la dérivation. Par exemple, une langue avec peu de règles dérivationnelles pourrait être dite plus complexe du point de vue de son lexique qu'une langue ayant un système dérivationnel développé : la complexité ne s'observerait pas alors uniquement dans le processus de formation du en-tête de page paire lexique, mais aussi, comme produit secondaire, dans la taille du lexique, ou dans la relation du lexique avec la syntaxe puisqu'en l'absence d'un dérivé, une même idée devrait alors être exprimée par une chaîne syntaxique (Juola, 1998 ; Guarisma, 2000). Si on évoque le domaine de la syntaxe, on pourra par exemple lier la complexité à l'hypotaxe. Plus précisément, au nombre mais aussi au fonctionnement des noeuds de subordination ou d'expansion, autrement dit au nombre et au fonctionnement des séquences structuralement incomplètes et dépendantes d'autres séquences (Givon & Shibatani, 2009) 1. Enfin, pour les usagers de la langue (les « non-linguistes »), il se peut que la réponse à cette question ait à voir avec l'effort impliqué dans la mise en pratique d'une certaine règle ou dans l'apprentissage d'une langue étrangère mais, à ce moment-là, deux locuteurs peuvent ne pas être d'accord sur le jugement de ce qui mérite d'être étiqueté 'complexe' (ou 'difficile'). Inutile de dire que des facteurs sociaux et donc externes à la langue peuvent influer sur l'évaluation de la complexité, ce qui suggère que la complexité est une notion relative. La tâche de circonscrire la notion de complexité en linguistique s'avère donc assez 'complexe

    " Geste " et " démarche " en tant que noms généraux dans le langage médiatique écrit

    Get PDF
    International audienceEn se basant sur le corpus médiatique Le Monde 1998, la présente étude s'intéresse aux usages de "geste" et "démarche" en tant que noms généraux qui, non seulement assurent une cohésion textuelle dans la presse écrite, mais aussi forment des concepts temporaires en ce sens que des procès homogènes ou composites se voient réduits à un label unique. Plutôt que de tester leur fréquence d'emploi, il s'agira d'exposer - de façon schématique - la diversité du mécanisme référentiel mis en œuvre par ces noms généraux. L'idée de "Propriété Extrinsèque" (Cadiot et Nemo, 1997; Cadiot, 2006) - calculable par le contexte immédiat - s'avèrera très avantageuse pour rendre compte de la représentation précise et cristallisée qui sera associée au nom général au sein de tel ou tel morceau textuel, puisque l'utilisation de "geste" et "démarche" en tant que nom général relève d'une réalité discursive, fort polysémique et dynamique de par nature

    « Les mots sortent

    Get PDF
    International audiencedu lot » : l'extraction d'information, Iris Eshkol, Université d'Orléans et Jean-Paul Taravella L'extraction d'information est une offre qui se structure depuis quelques années en France. Cette technologie répond à un besoin essentiel : permettre de repérer et d'extraire, à moindre coût, certains éléments structurés d'information à partir d'un texte non structuré On connaissait l'extraction principalement par le terme générique de « text mining » (fouille de texte) qui diffère du « data mining » (analyse de base de données structurées). Aujourd'hui les technologies sont matures et les applications sont nombreuses et ciblées. Citons : • L'indexation automatique : Il s'agit d'extraire des mots représentatifs du contenu du texte et d'indexer relativement finement de très gros volumes documentaires (comme par exemple en rétro conversion, ce qui permet aux personnels de se consacrer à d'autres tâches) ; Le classement automatique (sans plan de classement prédéfini) : il s'agit de classer les documents sous différentes thématiques qui sont générées et arborées automatiquement, • L'élaboration d'ontologies, de thésaurus, de terminologies, éventuellement multilingues : il s'agit grâce à l'extraction de mots et leur mise en relation avec des liens typés, d'aider le documentaliste à la découverte d'un domaine et à une première proposition de structuration en « thésaurus ». • Le résumé automatique : l'objectif est d'obtenir une représentation synthétique du texte, avec l'extraction de phrases significatives, • L'aide à la lecture : il s'agit de repérer rapidement dans des gros documents et/ou une grande volumétrie de documents, les mots et les faits recherchés, en contexte (mise en évidence du mot ou du fait dans un paragraphe ou une phrase) • La recherche et la navigation en moteur de recherche : il s'agit d'identifier des catégories de mots présents dans la liste des résultats produits lors d'une recherche (toutes les « organisations », toutes les « personnes », etc. présentes dans cette liste) afin d'affiner ou d'étendre la recherche 1 Les grands domaines utilisateurs sont donc ceux qui réclament une analyse de gros volumes textuels et une restitution sous forme structurée et synthétique : la « Relation Client », opérée par la direction Marketing ou Qualité qui souhaite une analyse automatique des e-mails ou des forums par exemple, afin de distinguer automatiquement des tendances d'expression positives et négatives sur un sujet ou un produit. Une autre application encore peut être l'analyse prédictive sur le client, en utilisant toutes les informations disponibles structurées et désormais non structurées sur le client,. Les enquêtes, les CVs, peuvent également être traités de cette même manière en exploitant les rubriques non structurées. Le deuxième grand domaine utilisateur est la veille, opérée par la direction Stratégie ou Recherche qui souhaite découvrir des mots et de relations entre ces mots, qu'il n'attendait pas (« joystik » lié à «mode de conduite» sur le site d'un constructeur automobile) ou qu'il poursuivait expressément (SociétéX rachète SociétéY ; Mr John quitte la SociétéX). Dans tous les cas, si la Direction informatique reste encore l'acheteur principal, les utilisateurs finaux sont très vite concernés pour la mise au point des règles d'extraction selon le domaine concerné (cf. Principes technologiques) et pour l'interface métier selon leur attente de restitution des données extraites. Aujourd'hui les principaux clients sont encore le monde de la santé, les éditeurs de contenu et celui du renseignement qui surconsomme de l'information textuelle. Mais nul doute que l

    Toponym recognition in custom-made map titles

    Get PDF
    International audienceThe titles of customized topographic maps constitute a specific corpus which is characterized by a very significant number of place names and spelling variations. This paper is about identifying toponyms in these titles. The toponym tracking is based on gazetteers as well as light parsing according to patterns. The method used broadens the definition of the top-onym to include the nature of the corpus and the data in it. It consists of seven successive stages where both the extralinguistic context-in this case toponym georeferencing-and the linguistic context are taken into account. Mistakes in tagging are analyzed from the corpus characteristics and the results of each step tagging are evaluated (recall, precision, F-measure). Different conclusions can be suggested: i) toponym recognition in web corpora should take into account spelling changes, ii) toponym recognition cannot be limited to gazetteer proper nouns, iii) the notion of subjective toponym is relevant in this specific corpus, and could be considered with reference to the customization of maps

    ...des conférences enfin disons des causeries... Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux.

    Get PDF
    International audienceNotre travail porte sur la détection automatique des segments en relation de reformulation paraphrastique dans les corpus oraux. L'approche proposée est une approche syntagmatique qui tient compte des marqueurs de reformu-lation paraphrastique et des spécificités de l'oral. Les données de référence sont consensuelles. Une méthode automatique fondée sur l'apprentissage avec les CRF est proposée afin de détecter les segments paraphrasés. Différents descripteurs sont exploités dans une fenêtre de taille variable. Les tests effectués montrent que les segments en relation de paraphrase sont assez difficiles à détecter, surtout avec leurs frontières correctes. Les meilleures moyennes atteignent 0,65 de F-mesure, 0,75 de précision et 0,63 de rappel. Nous avons plusieurs perspectives à ce travail pour améliorer la détection des segments en relation de paraphrase et pour étudier les données depuis d'autres points de vue. Abstract. Our work addresses automatic detection of segments with paraphrastic rephrasing relation in spoken corpus. The proposed approach is syntagmatic. It is based on paraphrastic rephrasing markers and the specificities of the spoken language. The reference data used are consensual. Automatic method based on machine learning using CRFs is proposed in order to detect the segments that are paraphrased. Different descriptors are exploited within a window with various sizes. The tests performed indicate that the segments that are in paraphrastic relation are quite difficult to detect. Our best average reaches up to 0.65 F-measure, 0.75 precision, and 0.63 recall. We have several perspectives to this work for improving the detection of segments that are in paraphrastic relation and for studying the data from other points of view

    La définition des annotations linguistiques selon les corpus : de l'écrit journalistique à l'oral

    Get PDF
    Confronté à Internet, le Traitement Automatique des Langues (TAL) a dû relever le défi que posait l’analyse de textes dialogiques écrits (blog, forum, chat, réseaux sociaux etc.) et oraux. Les recherches présentées ont, dans un premier temps, porté sur le développement de systèmes à même de repérer et d’analyser l’information à partir d’une annotation des ressources. L’approche retenue privilégie l’intégration d’indices inhérents à la nature de corpus « hors normes » afin d’améliorer les techniques de traitement automatique. La chaîne d’opérations comprend quatre étapes :(i) L’observation et l’analyse manuelle des données afin de recenser les variations dans les occurrences et d’évaluer l’ampleur des phénomènes à annoter, leur classification et l’identification de leurs marqueurs formels.(ii) La modélisation de l’information à partir d’une typologie sous la forme d’un jeu d’étiquettes ajusté à la nature du corpus.(iii) La définition de la technologie congrue (généralement, l’arbitrage entre le développement d’un nouvel outil et l’adaptation d’un outil existant).(iv) L’implémentation du schéma d’annotation défini afin de procéder à une analyse quantitative et qualitative des résultats.L’annotation effectuée concerne les domaines de la syntaxe (étiquetage morpho-syntaxique et chunking), sémantique et/ou pragmatique (entités nommées, indices d’identification de la personne, reformulations etc.). L’application concerne aussi bien des entretiens transcrits que des titres de cartes géographiques, des recettes d’omelette que des articles du Monde. Les méthodes utilisées varient en fonction du corpus et de la tâche traitée. L’annotation syntaxique et le repérage des segments reformulés sont fondés sur la technique d’apprentissage automatique avec les CRFs ; le repérage des entités nommées et des indices d’identification de la personne dans les transcriptions de l’oral utilise les méthodes symboliques ; la détection automatique des tours de parole contenant la reformulation emploie les méthodes heuristiques. Le travail sur le français parlé et son annotation a conduit à la modélisation des caractéristiques propres à l’oral : disfluences, marqueurs discursifs, présentateurs, segmentation, commentaires personnels etc. Un autre phénomène caractéristique de l’oral, la reformulation, a fait l’objet d’une étude particulière. Le travail sur l’annotation du corpus oral, du corpus Web ou du corpus médiatique a permis de reconsidérer la notion de subjectivité qui constitue l’une des difficultés récurrentes du traitement automatique. L’étude de la subjectivité et son expression dans le discours a été poursuivie dans plusieurs des recherches menées : la subjectivité à partir des informations personnelles livrées par le locuteur, la subjectivité dans la perception et l’appropriation des lieux, la subjectivité dans les recettes de cuisine et enfin la subjectivité exprimée à travers les noms généraux

    Enrichment of Renaissance texts with proper names

    Get PDF
    International audienceThe Renom project proposes to enrich Renaissance texts by proper names. These texts present two new challenges: great diversity due to various spellings of words; numerous XML-TEI tags to save the exact format of original edition. The task consisted to add Named Entity tags to this format tagging with generally the left context and sometimes the right context of a name. To do that, we improved the free and open source program CasSys to parse texts with Unitex graph cascades and we built dictionaries and specific cascades. The slot error rate was 6.1%. Proper Names and maps. were to allow navigating into. So, this paper deals with Named Entity Recognition in Renaissance texts

    Peut-on bien chunker avec de mauvaises Ă©tiquettes POS ?

    Get PDF
    http://www.taln2014.org/site/actes-en-ligne/actes-en-ligne-articles-taln/National audienceDans cet article, nous testons deux approches distinctes pour chunker un corpus oral transcrit, en cherchant à minimiser les étapes de correction manuelle. Nous ré-utilisons tout d'abord un chunker appris sur des données écrites, puis nous tentons de ré-apprendre un chunker spécifique de l'oral à partir de données annotées et corrigées manuellement, mais en faible quantité. L'objectif est d'atteindre les meilleurs résultats possibles pour le chunker en se passant autant que possible de la correction manuelle des étiquettes POS. Nos expériences montrent qu'il est possible d'apprendre un nouveau chunker performant pour l'oral à partir d'un corpus de référence annoté de petite taille, sans intervention sur les étiquettes POS. Abstract. In this paper, we test two distinct approaches to chunk transcribed oral data, trying to minimize the phases of manual correction. First, we use an existing chunker, learned from written texts, then we try to learn a new specific chunker from a small amount of manually corrected labeled oral data. The purpose is to reach the best possible results for the chunker with as few manual corrections of the POS labels as possible. Our experiments show that it is possible to learn a new effective chunker for oral data from a labeled reference corpus of small size, without any manual correction of POS label

    Un grand corpus oral « disponible » : le corpus d'Orléans 1 1968-2012

    Get PDF
    International audienceCet article présente la constitution et la mise à disposition du corpus oral ESLO. Notre objectif est de montrer qu'il ne s'agit pas seulement de recueillir et rendre disponible des données langagières mais aussi de rendre explicite l'ensemble de la chaîne de traitement qui permet d'élaborer un tel corpus. Après avoir présenté le projet et le corpus nous préciserons les problèmes juridiques et méthodologiques qui ont conditionné les opérations de traitement du corpus et notamment les procédures d'anonymisation indispensables à la libre diffusion de cette ressource. Dans une seconde partie, nous présenterons les différentes annotations effectuées sur les données brutes avec quelques exemples de leurs exploitations. Nous expliquerons la méthodologie suivie qui est toujours guidée par la nature des données et l'objectif final visé : constituer un grand corpus oral variationniste du français. Nous aborderons enfin les questions de mise à disposition du corpus en ligne

    Covering various Needs in Temporal Annotation: a Proposal of Extension of ISO TimeML that Preserves Upward Compatibility

    Get PDF
    International audienceThis paper reports a critical analysis of the ISO TimeML standard, in the light of several experiences of temporal annotation that were conducted on spoken French. It shows that the norm suffers from weaknesses that should be corrected to fit a larger variety of needs in NLP and in corpus linguistics. We present our proposition of some improvements of the norm before it will be revised by the ISO Committee in 2017. These modifications concern mainly (1) Enrichments of well identified features of the norm: temporal function of TIMEX time expressions, additional types for TLINK temporal relations; (2) Deeper modifications concerning the units or features annotated: clarification between time and tense for EVENT units, coherence of representation between temporal signals (the SIGNAL unit) and TIMEX modifiers (the MOD feature); (3) A recommendation to perform temporal annotation on top of a syntactic (rather than lexical) layer (temporal annotation on a treebank)
    • …
    corecore